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摘 要 : [目的 /意义 ] 作 为 一 类 面向 学 科 领 域 科技 情报 需求 .针对 全 文本 关键 语义 计量 分 析 、 旨 在 实现 情报 自动 化 到 知识 
自动 化 实践 应 用 的 探索 研究 ,本文 基 于 语义 标注 和 机 器 学 习 等 技术 ,在 前 期 研究 从 知识 元 共 现 视角 探测 研究 前 沿 
演进 机 理 基础 上 ,进一步 提出 一 种 基于 知识 元 变异 的 研究 前 沿 知 识 演 进 分 析 方 法 。[ 方 法 /过 程 | 利 用 Word2vec 
词 误 入 模型 将 知识 元 表示 为 词 向 量 , 通 过 计算 知识 元 向 量 的 欧 几 里 得 距离 ,利用 开 -means 聚 类 方法 识别 具有 相似 
语义 语 用 关联 的 知识 元 签 集 , 计 算 历时 答 集 内 各 知识 元 TF-IDF 值 ,对 变异 后 知识 元 重要 程度 的 突 发 变化 结果 进 
行 定量 测度 ,进而 挖 气 ESI 研究 前 沿 演进 中 的 知识 元 变异 特征 和 规律 。[ 结果 /结论 ] 通 过 探测 结果 的 对 比 检验 发 
现 , 基 于 知识 元 变异 的 科学 计量 方法 ,不 仅 是 对 前 期 研究 方法 的 补充 和 拓展 ,使 得 针对 研究 前 沿 内 部 知识 运动 规 
律 的 挖掘 更 加 具体 详实 ,更 是 在 时 间 序 列 范畴 内 ,能 够 尽早 、 及 时 探测 研究 前 沿 未 来 发 展 动向 和 关键 情报 信号 的 
有 力 证 据 。 


机 器 学 习 


全 文本 语义 分 析 ”和 钉 钛 矿 太 阳 能 电池 


文献 作为 记述 科学 发 现 和 技术 创新 系统 过 程 的 知识 载 
人 > 移 成 了 比 原 始 科学 数据 更 加 高 效 优质 的 文本 大 数 


SCRI AE UC 高 效率 利用 能 力 ') 。 因 此 ,如 何 语义 表 
示 科 技 文献 关键 知识 内 容 ,开发 细 粒 度 知识 单元 关联 
计算 方法 ,是 当前 科技 情报 面向 学 科 领 域 智慧 服务 的 
FATH’, 

关键 词 和 主题 词 虽 能 一 定 程度 反映 文章 的 研究 主 
题 及 知识 特征 ,但 对 于 STEM(Science ，Technology En- 
gineering & Mathematics) 等 领域 科技 文献 来 说 ,领域 知 
识 往 往 以 关联 知识 单元 形式 密封 在 文献 内 ,尤其 是 文 
献 的 Method/Experimental Section 等 “研究 方法 ”部 
分 上 后。 如果 能 够 限定 某 时 段 科 技 领域 知识 分 布 形态 的 
文献 数据 范围 ,针对 此 类 文献 的 特定 知识 单元 ,设计 能 
够 挖 抓 关键 语义 的 知识 单元 关联 计算 方法 ,继而 借助 
知识 图 谱 等 可 视 化 方法 ,就 可 以 展现 该 领域 隐 性 知识 


分 布 形 态 , 发 现 领 域 知识 流动 规律 ,实现 潜在 科学 发 
现 。 具 有 对 一 定时 段 内 世界 科技 前 沿 知识 分 布 形 态 表 
象 功能 的 数据 集 代表 即 ESI 研究 前 沿 ( Research 
Fronts) 数据库 .” 。 自 2001 年 起 ,美国 科学 信息 研究 所 
ISI 推出 基本 科学 指标 数据 库 ESI( Essential Science In- 
dicators ) ,并 利用 同 被 引 分 析 方 法 进行 研究 前 沿 分 析 。 
“Research Fronts”, 作 为 一 个 被 定义 为 研究 前 沿 的 专业 
领域 方法 , 即 源 自 于 科学 研究 间 的 某 种 共性 ,这 种 共性 
可 能 来 自 于 实验 数据 ,也 可 能 源 自 科 学 假设 .研究 方法 
或 科学 概念 ,并 反映 在 论文 内 科学 家 对 其 他 科学 家 工 
作 的 引用 这 一 学 术 行为 。 研 究 前 治 记载 了 分 散 的 研究 
领域 的 发 生 .汇集 .发展 等 连续 过 程 ,在 演进 过 程 中 , 通 
过 对 研究 前 沿 的 施 引 文献 分 析 , 可 以 发 现 该 领域 的 最 
新 发 展 方向 。 

《中 共 中 央 关 于 制定 国民 经 济 和 社会 发 展 第 十 四 
个 五 年 规划 和 二 @ 〇 三 五 年 远景 目标 的 建议 》 中 强调 : 
“面向 世界 科技 前 沿 、……… ,加 强 基 础 研究 .注重 原始 创 
新 ,优化 学 科 布 局 和 研发 布局 。 在 此 背景 下 ,围绕 针对 
基础 研究 的 ESI 研究 前 沿 数据 ,构建 学 科 领 域 知识 结 
构 特 征 的 语义 加 工 方法 ,开展 面向 前 治 的 前 脆性 战略 
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AE, ARA. 一 种 基于 知识 元 变异 的 ESI 研究 前 沿 知 识 演 进 分 析 方 法 [J]]. 图 书 情报 工作 ,2022 ,66(2) :136 - 148. 


情报 分 析 , 既 可 以 为 科研 人 员 把 握 研 发 动向 .追踪 前 沿 
发 展 脉络 .抢占 制高点 提供 先 机 ;也 可 以 为 国家 及 各 级 
政府 梳理 学 科 战 略 布局 侧重 点 .部 署 科 技 创 新 主攻 方 
向 \、 实 现 创 新 驱动 发 展 提供 决策 支撑 和 智力 支持 。 但 
当前 针对 ESI“ Research Fronts” 的 情报 研究 现状 是 ,其 
常 作为 基础 数据 应 用 于 “研究 前 沿 ” 系 列 探测 ”结合 
科学 图 谱 探索 国家 表现 ”等 工作 , 鲜 有 利用 科技 文献 


量 分 析 , 并 结合 文献 关联 网 络 ,在 基于 领域 知识 实体 计 
量 的 科学 知识 发 现 方面 取得 了 系列 成 果 。 

Y. Ding 等 在 2013 年 最 早 提出 “实体 计量 学 (Enti- 
tymetrics ) "的 概念 ,并 从 每 篇 文献 中 抽取 基因 疾病、 
药物 生物 知识 实体 ,构建 实体 引文 网 络 ,分 析 与 Met- 
formin 相关 研究 的 知识 利用 与 转移 方式 ” 。 此 后 ,ML 
Song 等 利用 生物 信息 学 PubMed 种 子 文献 及 其 参考 文 


全 文 数 据 ,从 语义 分 析 和 知识 计算 视角 探寻 前 沿 内 部 
知识 结构 变迁 的 情报 实践 。 
基于 上 述 背 景 ,又 由 于 本 文 前 期 研究 已 对 学 科 领 


献 ,建立 “基因 -引文 - 基因 ”引用 网 络 ,检测 基因 间 
隐 性 的 相互 作用 二 Q. Yu 等 利用 PubMed Central 全 
文 及 其 参考 文献 ,抽取 生物 数据 库 知识 实体 ,构建 数据 


域 知识 元 的 概念 内 涵 了 予以 界定 加 .初步 构建 知识 元 计 
量 方法 的 理论 基础 ,并 已 初步 实证 知识 元 方法 之 于 
ESI 研究 前 沿 知识 演进 的 可 行 性 和 先进 性 中 。 因 此 ， 
机关 在 前 期 研究 基础 上 ,进一步 提出 一 种 基于 知识 元 
变量 的 科学 计量 方法 ,将 对 ESL 研究 前 沿 的 演进 分 析 
聚焦 到 群 篮 知识 元 层面 ,重点 关注 研究 前 沿 演进 过 程 
异 靖 识 元 的 语义 语 用 功能 变化 ,事实 上 ,这 也 是 进一步 
从 融 贼 知识 内 容 本 身 理解 研究 前 沿 演进 机 理 的 关键 。 
论 癌 ”已 经 证 明 ,借助 情报 实践 的 操作 概念 来 理解 ,可 
将 研究 前 沿 看 作 具有 语义 语 用 功能 的 知识 元 集合 ,研究 
进 的 基础 是 与 知识 元 相关 的 创新 重组 及 应 用 变 


库 链接 网 络 ,跟踪 生物 数据 库 的 使 用 链接 关系 D. 
Lee 等 以 "阿尔 菊 海 默 病 ”为 检索 词 ,构建 4 种 类 型 网 
络 , 从 索引 创建 者 、 作 者 或 引用 者 等 不 同 观点 视角 捕获 
该 领域 的 认 知 状态 图 景 ”。K，Lee 等 通过 层 析 内 容 
分 析 法 (tomographic content analysis) ,将 和 蛋 白质、 基因 、 
MeSH 术语 作为 实体 ,探究 文献 内 查询 知识 实体 对 异 
质 知识 实体 网 络 的 影响 “ 。K. Li 等 基于 词典 抽取 每 
篇 文献 R 程序 包 实 体 , 构 建 单 篇 文献 R 程序 包 的 共同 
提 及 网 络 (paper-level co-mention network) ,探究 R 语言 
程序 包 在 生物 医学 文献 中 的 角色 与 使 用 状况 ” 。 
实体 计量 学 将 知识 实体 作为 基本 操作 单位 ,真正 


做 而 对 知识 元 共 现 链接 关系 的 解读 , 虽 是 基于 文本 控 
担 记 抽取 领域 知识 实体 的 分 析 , 但 本 质 上 依赖 的 仍 是 对 
知 次 元 计量 结果 的 人 工 语义 语 用 标注 ,只 不 过 机 器 在 此 
过 竹中 完成 了 领域 知识 的 自动 集合 和 分 类 。 本 文 在 此 
TAE , 仍 以 (2016 研究 前 沿 ) 化 学 与 材料 科学 领域 “高 
效 鳃 钛 矿 型 太阳 能 电池 "热点 前 沿 为 例 ,尝试 利用 机 器 
学 加 技术 自动 识别 知识 元 在 研究 前 沿 演进 中 的 语义 语 
用 功能 变化 ,探测 相同 语 用 环境 下 知识 元 群 笠 在 研究 前 
沿 演进 中 所 发 生 的 突 发 变异 现象 ,以 期 从 不 同 视角 E 
加 深入 理解 研究 前 沿 演进 时 学 科 知识 结构 的 变迁 机 理 ， 
也 为 面向 学 科 领 域 的 智慧 型 科技 情报 工作 提供 参考 。 


2 相关 研究 


科学 文献 知识 特征 可 以 划分 为 知识 表现 特征 和 知 
识 实体 特征 。 知 识 表现 特征 主要 用 于 评价 文献 的 学 术 
影响 力 , 知 识 实体 特征 则 可 分 为 外 在 知识 实体 特征 和 
内 在 知识 实体 特征 。 外 在 知识 实体 主要 是 指 文献 表层 
的 关键 词 .主题 词 等 ,常用 于 旨 在 促进 知识 发 现 的 知识 
利用 和 转移 研究 ,但 基于 外 在 知识 实体 特征 的 计量 分 析 
在 科学 文献 的 学 科 领 域 知识 地 图 构建 ,捕捉 学 科 领 域 思 
想 ,潜在 内 容 关 联 发 现 等 方面 尚 存 在 诸多 局 限 ”。 近 年 
来 ,已 有 许多 学 者 关注 基于 内 在 知识 实体 特征 的 科学 计 


实现 了 计量 对 象 向 文献 内 语义 知识 本 体 的 深化 ,可 更 
好 的 用 于 领域 知识 发 现 。 遗 憾 的 是 , 相 较 于 生物 医学 
领域 ,其 他 学 科 领 域 鲜 有 基于 文献 内 领域 知识 实体 计 
量 分 析 的 报道 。 究 其 原因 ,首先 ,从 PubMed 以 外 其 他 
出 版 商 很 难 获取 全 文 数据 ,从 全 文 数 据 获取 到 全 文 数 
据 复 用 都 面临 困难 ;其 次 ,生物 医学 领域 知识 实体 关系 
构建 往往 限于 全 文 XML 文档 和 带 有 PMID 的 文章 ,机 
器 读 取 处 理 较 易 ,而 其 他 科技 领域 全 文 常 为 付费 下 载 
的 PDF 格式 ,将 其 进一步 转换 为 机 器 可 读 的 text 格式 
不 但 耗 时 ,转换 前 后 精确 度 也 难以 保证 ;再 次 , 相 较 于 
生物 医学 领域 词典 的 丰富 完备 ,其 他 科技 领域 前 沿 交 
又 演化 迅速 .变迁 方向 多 样 ,难以 形成 覆盖 某 领 域 全 方 
向 的 知识 实体 词典 ,难以 保证 后 期 抽取 处 理 的 高 准确 


3 ”基础 理论 阐释 


3.1 知识 元 变异 理论 

我 国 著名 科学 学 家 赵 红 州 曾 提 出 "任何 一 种 
科学 创造 过 程 ,都 是 先 把 结晶 的 知识 单元 游离 出 来 , 然 
后 再 在 全 新 的 思维 势 场 上 重新 结晶 的 过 程 。 这 种 过 程 
不 是 简单 的 重复 ,而 是 在 重组 中 产生 全 新 的 知识 系统 ， 
全 新 的 知识 单元 。” 相 似 地 ,将 研究 前 沿 看 为 一 种 复杂 
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的 科学 知识 生态 系统 ,研究 前 沿 的 演进 看 作 科学 知识 
思维 重新 结晶 的 过 程 ,那么 ,在 围绕 前 沿 主题 的 特定 知 
识 范围 内 ,伴随 着 前 沿 的 演进 变化 ,前 沿 内 部 也 会 发 生 
知识 元 的 离散 和 重组 .演进 和 升华 ,衍生 和 转化 ,使 研 
究 前 沿 “ 知 识 结晶 ”形成 一 个 从 简单 到 复杂 、 从 低级 到 
高 级 的 上 升 过 程 。 在 此 期 间 , 某 些 关键 的 知识 元 可 能 
扮演 着 “知识 基因 ”的 角色 ,决定 着 特定 领域 知识 的 推 
进 与 突变 。 因 为 只 有 表征 不 同 知识 性 质 和 形态 的 知识 
元 ,在 不 同 前 沿 主题 中 迁移 .引发 知识 元 的 重组 .进而 
发 生 知识 元 结构 的 变异 ,才能 改变 前 沿 主题 内 部 知识 
的 链接 和 构造 关系 ,以 至 于 改变 研究 前 沿 的 知识 思维 
结晶 状态 .推动 科学 的 创新 和 发 展 。 

科学 学 奠基 人 贝尔 纳 (J. D. Bernal) AH ; “ME 
为 科学 本 身 的 要 求 ,课题 的 形成 和 选择 都 是 研究 工作 
中 之 复杂 的 阶段 。 一 般 来 说 ,提出 课题 比 解决 课题 更 
困难 ,而 评价 和 选择 课题 , 便 成 为 研究 战略 的 起 点 。” 反 
晓 色 研究 前 沿 中 ,研究 前 沿 的 创 生 往往 集中 于 新 产生 
的 和 学 方向 ,新 科学 方向 产生 于 新 的 科学 选 题 ,而 新 的 
科 尘 选 题 来 源 于 新 的 科学 概念 或 认 知 。 具 体 到 钙 钛 矿 
允 间 能 电池 等 领域 科技 文献 ,能 代表 作者 最 初 科学 认 
ji 文献 核心 科学 概念 的 , 便 是 科技 文本 中 的 “Meth- 


汾 妖 果 科学 家 产生 了 一 项 最 新 的 科学 发 现 或 科学 发 
明 33 论 是 技术 革新 升级 还 是 新 材料 制备 研发 , 均 会 在 
3 分 进行 详细 阐述 ,以 便于 同行 监督 和 科学 实验 重 
复 e> 而 如 果 某 前 沿 主题 在 某 时 期 形成 ,表现 为 科学 现 
象 就 是 一 个 新 科学 概念 .科学 发 现 . 科 学 方法 、 科 学 技 
术科 学 材料 的 出 现 ,反映 到 文献 中 就 是 实验 的 材料 组 
分 .设备 技术 ,操作 方法 的 突变 ,映射 到 知识 元 的 层面 
即 是 知识 元 发 生 的 变异 现象 。 意 即 , 此 时 期 的 知识 元 
生态 系统 ,与 上 一 时 期 知识 生态 系统 相 比 ,知识 元 构造 
的 变异 来 源 于 表征 某 特定 知识 形态 和 特征 的 知识 元 的 
变化 ,前 一 时 期 时 常 出 现 的 知识 元 成 分 被 突然 出 现 的 
知识 元 所 替代 。 
3.2 ESI 研究 前 沿 中 的 知识 元 变异 现象 

从 知识 元 变迁 重组 的 视角 来 看 ,演变 中 的 ESI 研 
究 前 沿 就 包含 了 许多 知识 元 变异 现象 。 以 钙 詹 矿 太阳 
能 电池 前 沿 为 例 , 透 明 导 电 玻璃 基底 、 金 属 对 电极 、 钙 
钛 矿 吸光 层 .电子 传输 层 `. 空 穴 传输 层 是 构成 钙 钛 矿 太 
阳 能 电池 最 重要 的 核心 部 件 "” ,如 果 5 种 核心 器 件 中 
有 一 种 部 件 的 材料 组 分 发 生变 化 ,材料 成 分 由 一 种 换 
成 了 另 一 种 ( 即 表征 研究 材料 的 知识 元 发 生变 异 ) ,就 
会 引发 钙 钛 矿 太 阳 能 电池 器 件 材料 结构 成 分 的 重组 ， 


继而 影响 整体 太阳 能 电池 的 光电 转换 效率 和 稳定 性 等 
特质 。 举 例 来 说 ,在 钙 钛 矿 吸 光 层 等 其 他 器 件 材料 组 
分 均 相 同 .制备 温度 也 相同 的 情况 下 ,如 果 仅 将 电子 传 
输 层 材料 由 单一 锐 钛 矿 (anatase TiO, ) MOREY) 、 蔡 换 为 
EEK W TH 4 OK ZF AE TiO, (anatase TiO, & nanofibers 
TiO, ) 组 成 的 复合 物 材 料 ,最 终 钙 钛 矿 太 阳 能 电池 
在 短路 电流 密度 .开路 电压 填充 因子 和 光电 转换 效率 
等 关键 性 能 方面 表现 均 不 相同 , 且 大 部 分 性 能 指标 差 
异 较 大 。 这 还 仅 为 基于 TiO, 同 质 材料 的 变异 ,如 果 将 
TiO, 替换 为 其 他 不 同族 类 属 别 的 化 学 材料 ,那么 最 终 
由 表征 研究 材料 的 知识 元 组 分 重组 而 引发 的 钙 詹 矿 太 
阳 能 电池 性 能 改变 将 更 大 。 

可 见 ,ESI 研究 前 沿 知识 元 构造 内 部 组 分 发 生变 
异 的 信号 ,往往 标志 着 由 知识 元 重组 而 引发 的 科学 知 
识 重 新 结晶 运动 ,并 在 一 定 条 件 下 催 发 知识 元 所 表征 
科学 内 涵 的 变化 ,进而 推动 科学 要 素 重 构 , 引 起 科学 研 
究 特 质 及 性 质 的 变革 。 

综 上 ,本 文 将 ESI 研究 前 治 中 钙 钛 矿 太 阳 能 电池 
领域 的 知识 元 变异 具象 化 定义 为 : 

定义 1: 将 透明 导电 玻璃 基底 (Substrate ) .金属 对 
电极 ( Pole) , #5 £K 8^ UR 26 Ez (Layer)、 电 子 传输 层 
(ETM) 、 空 穴 传输 层 (HTM) 等 构成 钙 钛 矿 太 阳 能 整体 
器 件 的 N 种 化 学 材料 看 为 N 元 知识 元 组 | MS, MP， 
ML,ME,MH,---,MN} ,其 在 Tl 时 刻 文 本 的 知识 元 构 
成 为 | MS1 ,MP1 ,ML1 , MEI , MHI , --- , MNI ,如 果 其 在 
T2 时 刻 文本 至 少 有 一 种 知识 元 材料 成 分 发 生变 化 ,如 
由 于 电子 传输 层 材料 变化 生成 新 的 N 元 知识 元 组 
1MS1 ,MP1 , MLI , ME2, MHI , --- , MNI | , 则 说 明 发 生 了 
知识 元 变异 现象 。 在 此 现象 中 ,发 生变 异 知识 元 所 处 
的 元 组 位 置 没 有 变化 (对 应 到 科学 文献 实验 文本 语 料 ， 
其 上 下 文 位 置 知 识 元 材料 的 组 分 构成 和 排列 组 合 顺序 
没有 变化 ) ,但 就 是 因为 处 于 同一 位 置 、. 表 征 相 同 钙 钛 
矿 太 阳 能 电池 部 件 材 料 语 义 成 分 的 变化 ,引发 了 电池 
整体 性 能 和 技术 特征 的 变化 。 


4 研究 方法 


本 文 对 知识 元 语义 的 描述 主要 基于 计算 语言 学 的 
分 布 假说 (Distributional hypothesis) ‘7’, 4} #i (BLA 
为 ,词语 的 语义 以 及 对 词语 语义 的 比较 由 其 所 处 的 上 
下 文 内 容 决 定 。 本 文 所 研究 的 知识 元 的 “语义 ”是 根 
据 知 识 元 的 上 下 文 ( 即 上 下 知识 元 ) 以 及 所 处 的 前 沿 
主题 范围 予以 判断 ,是 指 知 识 元 进入 交际 后 的 意义 ( 即 
知识 元 在 不 同 语 境 下 所 代表 化 学 材料 的 排 布 应 用 
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事实 上 ,对 应 前 文 ”, 当 表征 创新 科学 概念 或 创新 
材料 的 知识 元 演进 变迁 后 ,其 对 新 前 沿 主题 内 其 他 知 
识 元 的 影响 实质 是 一 -使 得 其 他 知识 元 的 上 下 文 语 境 
发 生 了 变化 ( 由 同位 置 的 知识 元 变化 而 引起 组 分 排 布 
变化 ) 。 因 此 ,由 于 原始 文本 语 料 是 抽取 的 每 篇 施 引文 
献 全 文 的 实验 部 分 ,如 果 经 过 POS 词性 标注 过 滤器 的 
清洗 去 噪 ,语料库 中 剩余 文本 的 构造 实质 是 带 有 上 下 
文 语 境 的 “知识 元 词 项 袋 ” 
ments) ,该 词 袋 中 的 知识 元 不 是 无 序 散 乱 分 布 ,而 是 按 
科学 家 原始 实验 步骤 的 连续 
ment) 。 伴 随 着 研究 前 沿 的 演进 ,从 钙 钛 矿 太 阳 能 电池 
关键 器 件 材料 到 前 期 实验 使 用 试剂 溶剂 的 知识 元 构造 
成 分 会 发 生变 异 , 而 此 时 利用 分 布 式 语义 (Distribution- 
ahsemantic ) 方 法 ,恰好 能 够 通过 对 知识 元 上 下 排列 位 
本 的 神经 网 络 学 习 ,对 知识 元 的 语义 语 用 加 以 表示 和 
区 分 ,如 果 在 此 基础 上 ,再 寻 得 一 种 可 以 对 珍 类 后 的 知 


( Bag of Knowledge ele- 


排列 ( continuous align- 


展现 研究 前 沿 内 共 时 历时 的 知识 元 变异 情况 。 

因此 ,本 文 首先 利用 基于 分 布 假说 构建 的 词语 分 
散 式 表示 工具 word2vec i8] ix ARA ( Continuous Bag- 
Of-Words, CBOW 模型 ) ,基于 上 下 文 对 知识 元 进行 神 
经 网 络 训练 建 模 ,将 知识 元 表示 为 词 向 量 , 词 向 量 是 对 
有 具 有 相似 上 下 文 知 识 元 的 表示 ;然后 ,通过 计算 知识 元 
向 量 的 欧 几 里 得 距离 ( Euclidean distance) 所 构建 的 相 
似 性 和 矩阵 ,利用 上 -means 聚 类 方法 对 其 进行 聚 类 ,识别 
具有 相似 语义 语 用 关联 的 知识 元 篮 集 , 聚 类 即 是 对 知 
识 元 变异 运动 结果 的 表征 , 聚 类 后 的 知识 元 徐 具 有 相 
似 的 上 下 文 ,反映 了 有 具有 相同 语法 语义 特征 的 知识 元 
组 合 , 具 有 相同 的 语 用 功能 ,代表 了 钙 钛 矿 太 阳 能 电池 
前 沿 某 种 器 件 或 材料 的 集合 ;最 后 ,计算 共 时 历时 簇 集 
内 各 知识 元 的 TF-IDF 值 ,对 变异 后 知识 元 重要 程度 的 
突 发 变化 结果 进行 定量 测度 ,进而 挖掘 研究 前 沿 演进 
中 的 知识 元 变异 特征 和 规律 。 


4.1 Word2vec 词 骨 入 模型 

本 文 对 知识 元 上 下 构造 随时 间 的 变化 研究 ,应 用 
基于 分 布 假说 和 神经 网 络 的 分 布 表 示 技 术 构 建 的 
Word2 vec 词 租 入 模型 进行 探测 。Word2vec 中 包括 两 
个 模型 :CBOW ( Continuous Bag-Of-Words , 连续 词 袋 模 
型 ) 和 Skip-Cram 两 种 模型 ,训练 结果 都 是 将 语 料 中 所 
有 的 词 表示 为 相同 维 数 分 量 为 实数 的 连续 向 量 。 由 于 
本 文 研究 目标 是 求解 预 处 理 文 本 语 料 中 上 下 文 之 间 知 
识 元 的 变化 情况 ,而 旦 截取 的 实验 文本 训练 语 料 也 并 
非 大 规模 数据 集合 ,因此 使 用 Word2vec 中 的 CBOW 模 
型 实施 机 器 学 习 词 向 量 训练 。 
4.2 K-means 聚 类 算法 

利用 Word2vec 词 租 入 模型 计算 的 知识 元 词 向 量 
是 对 实验 文本 中 具有 相似 上 下 知识 元 位 置 成 分 的 表 


Et 


FE 


A Fps i Hl 、 edie l 7 
AXE A ia ES AEE DEIT GE A BE AHR, ET A M 具体 研究 方法 流程 如 图 1 所 示 
e | | Im | 

z | 命名 实体 识别 | 词 嵌 和 模型 | 
er | | | | — Ip | 
C | | OSCARA — | i word2vec | 
D | | "mu mr ee 
N | 施 引文 献 全 文 X SEAN NE Su ' 
e | J} PDFMate > 1L I» Lt K-means ! 
N | i ! = | | 

nu | | Tea 纯 文本 P 4 dagi | |o 知识 元 语义 束 类 艇 | ! 
| | | | J pneum | 
a Experimental Section | | | 研究 前 沿 知识 元 变异 | 
c | 命名 实体 识别 La | 
B= 与 数据 预 处 理 数据 处 理 

Kan cmm C M Eu PM Be Bee ae aaa re 
Q 


1 基于 知识 元 变异 的 ESI 研究 前 沿 知识 演进 分 析 方 法 流程 


征 , 即 知识 元 的 语 用 相似 性 (反映 了 知识 元 在 钙 钛 矿 大 
阳 能 电池 中 的 材料 器 件 应 用 ) 由 知识 元 在 实验 文本 中 
分 布 排列 位 置 的 相似 性 决定 。 而 借助 欧式 距离 对 
Word2vec 知识 元 词 向 量 的 计算 , 则 能 够 寻 得 具有 相似 
上 下 文 结构 的 知识 元 组 分 , 且 欧 式 距 离 越 近 、 表 明知 识 
元 间 语 义 越 相似 , 即 知识 元 在 研究 前 沿 中 的 语 用 功能 
越 相 似 , 极 有 可 能 用 于 太阳 能 电池 的 同一 种 器 件 材料 
构成 。 

计算 知识 元 词 向 量 欧 几 里 得 距离 所 构建 的 相似 性 
矩阵 ,利用 K-means 算法 对 其 进行 聚 类 ,以 识别 具有 相 
似 语义 语 用 特征 的 知识 元 篮 集 。 聚 类 结果 即 是 对 知识 
元 变异 运动 结果 的 表征 , 聚 类 后 的 目标 知识 元 篮 往 往 
具有 相似 的 上 下 文 ( 在 实验 文本 语 料 中 具有 相似 的 化 
学 知识 实体 排列 分 布 位 置 `. 具 有 相似 的 上 下 知识 元 词 
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项 ) , 簇 集 内 的 欧式 距离 往往 较为 相近 ,反映 了 具有 相 
同 语法 语义 特征 的 知识 元 组 合 ,它们 具有 相同 的 语 用 
功能 .代表 了 钙 钛 矿 太 阳 能 电池 前 沿 某 类 器 件 或 材料 
的 集合 。 相 比 于 前 文 所 中 知识 元 关联 及 语义 语 用 的 人 
工 标注 ,本 文 可 以 利用 机 器 对 相同 语法 语义 和 语 用 功 
能 的 知识 元 实现 自动 识别 并 聚 类 。 
4.3 TF-IDF 知识 元 突变 度 计 量 

知识 元 变异 的 特征 实质 ,是 某 知识 元 所 代表 的 化 
学 材料 成 分 ,在 某 时 期 突然 出 现在 某 特定 实验 文本 中 ， 
而 与 该 知识 元 共同 用 来 实验 的 其 他 化 学 试剂 和 材料 并 
未 改变 (这 些 化 学 试剂 和 材料 此 时 期 在 较 多 实验 文本 
中 均 出 现 并 广泛 使 用 ) ,也 就 是 说 , 当 发 生 知识 元 变异 
现象 时 ,所 对 应 文本 和 语词 具有 的 规律 特征 是 :发 生变 
蚂 的 知识 元 词 项 在 一 篇 实验 文本 中 高 频 出 现 , 且 该 知 
识 完 词 项 在 同时 期 其 他 实验 文本 中 出 现 的 比例 极 小 ， 

该 知识 元 词 项 此 时 期 对 于 某 特定 前 沿 实验 文本 来 
常 具 有 代表 性 和 区 分 度 , 是 特 属于 该 特定 实验 文 
丽 重 要 关键 词 项 。 而 用 以 评估 某 词 项 对 于 一 个 文件 
集 或 语料库 中 一 篇 文本 重要 程度 的 统计 方法 ,常用 的 
TP TF-IDF * ia] ji - 着 文件 频率 "算法 ,因此 ,本 文 用 
F 词 项 加 权 技 术 对 各 时 期 内 同类 艇 知识 元 进行 
变异 程度 的 表示 和 测算 。 
,利用 TF-IDF 倾向 于 过 滤 掉 某 时 期 实验 文本 中 应 
用 它 泛 的 常见 知识 元 词 项 ,保留 此 时 期 内 突 发 变异 程 
PBK ,对 特定 实验 文本 较为 重要 的 知识 元 词 项 ,进而 
可 必 对 具有 同类 化 学 材料 属性 知识 元 的 共 时 历时 突 发 
变 治 程度 进行 定量 测度 。 由 于 某 时 期 某 特 定 知识 元 可 
AEA n 篇 实验 文本 中 出 现 ,会 具有 n 个 TF-IDF 值 , 因 
此 ,为 更 好 的 表征 该 知识 元 在 此 时 期 的 突 发 变异 程度 ， 
本 文 将 利用 知识 元 在 n 篇 文本 中 n 个 TF-IDF 的 平均 
值 ,作为 该 知识 元 的 突 发 变异 测度 指标 。 即 对 于 t 时 
刻 知识 元 词 项 ,其 突变 度 计算 如 公式 1 BUR: 
Sum ifidf,, Z} tfidf,, 


tf idf, = 


(公式 1) 


5 实证 研究 


5.1 Word2vec 知识 元 词 向 量 训练 

由 于 数据 语料库 规模 大 小 会 影响 Word2vec 知识 
元 词 向 量 的 训练 结果 ,机 器 学 习 的 准确 性 也 较为 依赖 
神经 网 络 输入 层 数据 的 量 级 ,而 且 ,为 了 与 前 文 ” 结 果 
进行 更 好 的 对 比分 析 和 延伸 验证 ,本 文 沿 用 前 文 “ 对 
截取 实验 文本 数据 的 时 间 标 签 分 类 ,将 对 ESI 研究 前 
沿 进行 演化 的 语料库 划分 为 2010 -2014 年 (由 于 2010 


-2013 年 施 引 文献 数据 量 过 少 ,因此 将 其 归并 2010 - 
2014 年 段 分 析 ) .2015 年 .2016 年 和 2017 年 4 个 时 间 
窗口 。 与 前 文 ” 预 处 理 方法 相同 , 本文 也 将 每 个 时 其 
去 除 标 点 .去 除 停 用 词 .N 元 语词 过 滤 预 处 理 后 的 文本 
语 料 , 在 实施 OSCAR4 化 学 知识 元 实体 识别 后 ,利用 
POS tagging( Part-of-Speech tagging ) 词性 标注 过 滤器 ， 
过 滤 掉 不 含有 OSCARS 化 学 实体 标签 的 噪音 数据 ,并 
最 终 经 过 Notepad + + 等 工具 的 进一步 去 重 去 噪 , 使 得 
待 处 理 的 语料库 仅 为 包含 OSCAR 化 合 物 C chemical 
compound, CM) 的 知识 元 数据 。 但 与 前 文 ”数据 处 理 
方法 的 不 同 在 于 ,本 文 并 未 对 预 处 理 和 去 品 去 重 后 的 
知识 元 文本 进行 BOW 建 模 ,而 是 直接 导入 DeepLearn- 
ing4J(DIAJ) 神经 网 络 工 具 包 ,进行 Word2vec ii] fe A 
模型 机 器 学 习 词 向 量 训练 。 

应 用 Word2 vec 词 能 和 人 技术 ,根据 知识 元 的 上 下 文 
信息 ,对 知识 元 语义 进行 表示 。 每 个 时 期 原始 语 料 为 
经 过 实体 识别 、 预 处 理 .POS 词性 标注 过 滤 之 后 ,每 篇 
文本 语句 被 分 割 为 一 个 二 维 列 表 , 列 表 中 的 元 素 为 文 
本 处 理 后 剩余 的 化 学 知识 实体 ,这 些 化 学 实体 知识 元 
以 字符 串 形式 出 现 ,表示 如 下 : 


Sentences = |[ ‘first’ , ‘ knowledge element’ ] ， 


[ ‘second’ , ‘ knowledge element’ |} ,--- 

将 这 些 带 有 原始 实验 上 下 位 置 排列 分 布 顺序 的 知 
识 元 词 项 ,导入 Word2vec 中 的 CBOW 模型 ,就 可 以 基 
于 知识 元 的 上 下 词 项 顺序 ,实施 具有 相同 语义 知识 元 
的 学 习 训 练 ,预测 所 得 知识 元 并 非 只 有 语义 上 的 相似 
性 ,其 体现 的 更 是 知识 元 间作 为 化 学 成 分 在 实验 中 真 
实 应 用 的 关联 , 即 与 其 他 化 学 组 分 最 终 所 生成 制备 材 
料 的 语 用 相关 性 。 本 文采 用 Word2vec 模型 的 常用 参 
数值 ,选取 词 向 量 维 数 为 100 维 ,输出 的 知识 元 词 向 量 
如 表 1 Br: 


R1 知识 元 词 向 量 示 例 
知识 元 词 向 量 (100 维 ) 
TiO, (0.431 106 508,0. 604 523 599,0. 860 540 569, 


— 0.063 856 05 ,---,0. 225 055 814,0.109 347 574, 
—0.004 203 026,1. 110 648 513) 


(0. 154 845 804,0. 335 497 2,0.630 570 054, 
Al,03 — 0.097 430 952 ,---,0. 060 130 555,0. 137 183 696, 
0.055 556 033 ,0. 409 101 218) 


(0.010 166 312,0. 157 198 429,0. 233 724 013, 


CH3NH3PbBr3 —0. 004 123 966,…,0.027 948 08 ,0.082 523 182, 
0.074 739 113,0.052 901 864) 
(0.008 930 83,0. 085 651 048,0. 129 862 279, 
CH3NH3PbCl; ^ 0.014 664 159 ,---,0.024 106 275,0. 048 351 053, 


0.055 006 426 ,0. 056 883 857) 


注 : 选 自 2010 - 2014 年 段 文本 数据 的 词 向 量 训练 结果 
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5.2 K-means 知识 元 相似 语义 簇 聚 类 

实施 K-means 算法 最 为 首先 、 也 是 最 为 重要 的 步 
又 即 是 事先 给 定 k 值 的 选取 ,该 初始 聚 类 中 心 的 选择 
对 聚 类 结果 有 和 较 大 影响 。 依 据 肘 部 法 则 ,轮廓 系数 等 
定量 选取 指标 ,结合 前 文中 知识 元 社区 的 数据 分 布 


收敛 和 分 类 效果 均 相 对 最 佳 。 因 此 ,对 不 同时 间 窗 口 
下 知识 元 词 向 量 处 理 后 的 聚 类 语义 篮 均 选 定 为 3 个 ， 
H. K-means 算法 的 最 大 迭代 处 理 次 数 均 设置 为 默认 值 
99 次 。 图 2 为 对 2010 -2014 年 知识 元 词 向 量 进行 K- 
means 算法 学 习 后 的 聚 类 结果 分 布 图 ,为 便于 区 分 ,将 


结果 ,为 保证 聚 类 结果 的 准确 性 和 最 大 收敛 效应 进行 
T k 值 选取 的 多 次 预 处 理 实验 ,最终 发 现 :针对 不 同时 
间 窗 口语 料 , 当 k 值 选 取 为 3 时 ,总 体 来 看 ,不 但 处 理 
得 到 的 知识 元 语义 复 聚 类 结果 容易 判读 对 比 , 且 聚 类 


不 同 聚 类 复 的 知识 元 用 不 同 颜色 和 不 同形 状 节 点 进行 
表示 : 聚 类 角 1 中 知识 元 节点 为 红色 正方 形 ; 聚 类 复 2 
中 知识 元 节点 为 绿色 花 型 ; 聚 类 篮 3 中 知识 元 节点 为 
蓝 色 三 角形 。 


0.694 
0.58 
0.48 
T= cluster3 
e 0.38 
"T 
CO 028 
e cluster2 
=) 0.18 
S 
0.08 4 A 
2 : Clusterl 
e -0.01 
N —0.486 —0.287 —0.087 0.113 0.314 
m m —0.588 —0.386 —0.187 0.013 0.214 0.431 
> 
ws 2 2010-2014 年 知识 元 词 向 量 聚 类 分 布 结果 


X 


COG 利 用 不 同时 段 知识 元 K-means 聚 类 的 可 视 化 结 
果 5 即 可 以 通过 各 时 期 知识 元 语义 语 用 相似 性 的 收 化 、 
,分 布 情况 ,直观 判断 研究 前 沿 科学 知识 结构 的 稳 
定性 和 知识 密集 程度 ,进而 对 ESI 研究 前 沿 的 内 部 知 
识 流动 规律 有 所 把 握 。 

5.3 TF-IDF 知识 元 突变 度 计量 

Word2vec 通过 知识 元 在 实验 中 的 上 下 位 置 排 布 ， 
可 以 自动 判别 具有 相似 语义 语 用 功能 的 知识 元 ;而 K- 
means 的 数据 分 割 聚 类 功能 , 则 可 以 实现 对 表征 特定 
语义 功能 知识 元 对 象 的 关联 分 类 ,使 得 每 个 组 内 部 知 
识 元 的 语义 相关 性 较 高 ,而 组 间 知识 元 的 语义 相 异 性 
较 高 。 在 此 之 后 ,经 过 语义 表征 和 语义 分 类 处 理 后 的 
知识 元 集合 ,就 为 某 时 期 基于 TF-IDF 的 知识 元 突 发 变 
异 程度 计量 提供 了 天 然 数据 集 。 

例如 ,图 2 中 2010 -2014 年 段 知识 元 语义 聚 类 复 
分 布 构成 如 表 2 所 示 : 可 以 发 现 ,Clusterl 和 Cluster2 中 
知识 元 的 语 用 功能 多 表征 钙 钛 矿 太 阳 能 电池 前 期 实验 
制备 常用 的 化 学 试剂 或 基础 溶液 , 较 少 出 现 前 文中 


TE 


钙 铁 矿 太 阳 能 电池 关键 部 件 的 化 学 材料 组 分 ;而 Clus- 
ter3 中 知识 元 却 多 为 构成 关键 器 件 材料 的 核心 化 学 成 
分 ,如 MASnX , CsSnI, , MAPDI, 等 均 可 应 用 于 钙 钛 矿 太 
阳 能 电池 吸光 薄膜 制备 ;而 In, 0, , Sb, S, .NiO ,ZnO , PbS 
等 则 常 应 用 于 电子 传输 层 . 空 穴 传输 层 或 支架 阻挡 层 
等 核心 器 件 。 

表 2 知识 元 语义 簇 部 分 结果 组 成 

知识 元 组 成 


知识 元 类 簇 


Clusterl BaTiO}; BFO; PDMS; DMF; Tb407; epoxy; AgBiS,; FAI; Y- 
TiO, ; AgSbS, ; formaldehyde ; C4H7NO ; PANI ; Zn, TiO, ; PEI 

Cluster2 Li-TFSI; IPFB; Sb,Se3; AgS; hydrochloric ; CQDs; acetic ; CsI; 
Cu50; F8BT; phthalocyanine ; FA; hydroiodic ; 
dimethyl; CH4NH34Br 

Cluster3 CuSbS,;MASnX3; MWCNT; DIO; In505; Sb2S3; CsSnl;; MAP- 


bls; NiO ; ZnO ; PbS ; ZrO% ;Sn05;SiO, ; CdSe 

ik:3& A 2010 - 2014 ERARIGI [n] ERKI, EL LATA OT 
TF-IDF 值 降序 排列 
在 此 基础 上 ,再 借助 TF-IDF 突变 度 计算 ,就 能 够 
识别 具有 相似 化 学 语义 .表征 相似 化 学 材料 语 用 功能 
知识 元 在 某 时 期 对 于 前 沿 主题 文本 的 突 发 变异 程度 ， 
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进而 提早 探 得 知识 元 对 于 该 前 沿 领域 未 来 创新 发 展 的 
潜在 影响 效用 。 

例如 , 表 2 中 Cluster3 探 得 2010 - 2014 年 对 于 钉 
铁 矿 吸光 薄膜 材料 突变 度 最 大 的 知识 元 为 MASnX,、 
CsSnL , MAPDL, , 在 前 文 “知识 元 共 现 方法 分 析 结 果 
rh, MAPDI, 在 2010 - 2014 年 作为 高 共 现 率 知识 元 被 
准确 识别 ,但 MASnX, ,CsSnL, 由 于 共 现 频次 较 低 ,作为 
实验 文本 中 低频 词 项 无 法 予以 识别 ,直至 2017 年 才 作 


为 高 共 现 知识 元 成 对 出 现 。 而 本 文中 ,通过 变异 度 计 
4t , MASnX, ,CsSnI, 不 仅 在 2010 - 2014 年 段 就 能 被 准 
确 识别 , 且 其 在 此 时 期 变异 程度 较 高 ,作为 “知识 地 貌 
图 ”的 突变 “知识 地 势 " ,是 未 来 可 能 影响 技术 创新 方 
向 的 关键 信号 。 如 前 文 “" 所 述 ,近年 科学 家 致力 于 解 
决 钙 钛 矿 太 阳 能 电池 中 有 毒 重金 属 Pb 的 环境 污染 问 
题 3 获得 MASnXs .CsSnl, 等 环境 友好 型 无 铅 钙 钛 矿 大 
阳 能 电池 成 为 热点 方向 ,这 也 为 本 文 方法 思路 和 上 文 
判断 提供 了 佐证 。 

加 5 可见, 基于 知识 元 变异 的 科学 计量 方法 ,不 仅 是 对 
前 关中 知识 元 共 现 方法 的 补充 和 延伸 ,使 得 针对 研究 
齐名 内 部 知识 运动 规律 的 挖 气 更 加 详实 具体 。 更 是 在 
时 癌变 迁 下 ,能 够 尽早 、 及 时 探测 研究 前 沿 未 来 发 展 动 
© 0.694 

CN B clusterl 


向 的 有 力 情报 证 据 。 
5.4 基于 知识 元 变异 的 ES 研究 前 沿 演进 分 析 

针对 不 同时 间 窗 口 下 钙 钛 矿 太阳 能 电池 研究 前 沿 
截取 的 实验 文本 数据 集 , 均 经 过 Word2vec 知识 元 词 向 
量 训练 下 -means 知识 元 相似 语义 簇 附 类 ,TF-IDF 知识 
元 突变 度 计量 等 步骤 , 即 可 针对 ESI 研究 前 沿 内 部 科 
学 知识 结构 ,由 横向 到 纵向 的 描绘 其 随时 间 演 进 的 知 
识 流动 及 变化 规律 。 为 便于 统一 对 照 比较 、 且 对 每 个 
时 段 研 究 前 治 的 知识 变异 特征 进行 更 好 的 判读 分 析 ， 
在 对 不 同时 段 文 本 数据 进行 处 理 时 ,每 个 时 间 窗 口 下 
最 终 均 生 成 3 个 知识 元 语义 聚 类 复 ( 为 便于 区 分 ,不 同 
聚 类 复 中 的 知识 元 节点 用 不 同 颜色 和 不 同形 状 表 示 : 
HORE 1 中 知识 元 节点 为 红色 正方 形 ; 聚 类 复 2 中 知 
识 元 节点 为 绿色 花 型 ; 聚 类 簇 3 中 知识 元 节点 为 蓝 色 
三 角形 ) , 且 每 个 簇 集 均 展示 TE-IDE 变异 度数 值 排名 
前 15 位 知识 元 。 
5.4.1 2010 -2014 年 研究 前 沿 知识 变异 特征 

ESI 研究 前 治 2010 -2014 年 知识 元 语义 簇 聚 类 分 


布 结果 如 图 3 所 示 , 各 簇 内 前 15 位 高 变异 度 知识 元 分 
布 如 表 3 所 示 : 


X Cluster2 
0.588 & Cluster 3 
+ zi 
^* 
0.488 
0.388 
» 
0.288 
0.188 
. 
0.088 E 
1 
—0.012. 
—0.486 —0.287 0.113 0.314 
—0.586 —0.386 —0.187 0.013 0.214 0.431 


图 3 2010 -2014 年 研究 前 沿 知识 元 语义 聚 类 簇 分 布 


可 以 看 出 ,2010 - 2014 年 作为 钙 铁 矿 太阳 能 电池 
研究 萌发 时 期 ,此 时 知识 元 节点 的 聚 类 分 布 较为 紧凑 
集中 ,各 知识 元 语义 坚 类 簇 边缘 分 割 也 较为 清晰 。 在 
语义 语 用 功能 方面 ,Clusterl 和 Cluster2 中 拥有 和 较 高 变 
异 度 的 知识 元 ,大 都 表征 钙 钛 矿 太 阳 能 电池 前 期 实验 
制备 的 化 学 试剂 和 基础 溶液 。Cluster3 则 更 多 反映 了 


此 时 期 吸光 层 .电子 传输 层 等 钙 詹 矿 太阳 能 电池 核心 
器 件 材料 的 应 用 焦点 。 

Cluster! 聚焦 制备 阻挡 层 基底 的 聚 二 甲 基 硅 氧 烷 
(PDMS) 作为 溶液 洲 解 卤化 物 钙 钛 矿 的 二 甲 基 甲 酰 
胺 (DMF) .制备 支架 材料 的 环 氧 树脂 (Epoxy) .与 其 他 
材料 合成 制备 纳米 蝇 的 银 锐 硫 ( AgBiS, ) 7 5€, Cluster2 
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#3 2010-2014 年 研究 前 沿 


各 语义 簇 知识 元 变异 度 分 布 


E Clusterl Cluster2 Cluster3 
dii 知识 元 变异 度 知识 元 变异 度 知识 元 变异 度 
1 BaTiO, 0.5299 Li-TFSI 0.479 4 CuSbSy 0.316 3 
2 BFO 0.5170 IPFB 0.282 2 MASnX; 0.285 8 
3 PDMS 0.512 8 Sb;Se; 0.186 1 MWCNT 0.269 2 
4 DMF 0.304 1 AgS 0.135 5 DIO 0.215 1 
5 Tb407 0.207 8 hydrochloric 0.132 5 In505 0.196 3 
6 epoxy 0.193 3 CQDs 0.094 4 Sb2S3 0.128 8 
7 AgBiSy 0. 187 0 acetic 0.080 3 CsSnl, 0. 087 3 
8 FAI 0. 158 2 CsI 0.073 6 MAPÞI; 0.084 1 
9 Y-Ti0, 0. 134 5 Cu,0 0.068 0 NiO 0.065 2 
10 AgSbS， 0.133 6 F8BT 0.067 9 ZnO 0.057 3 
11 formaldehyde 0.125 6 phthalocyanine 0.065 0 PbS 0.055 1 
12 C4H;NO 0.123 8 FA 0.058 0 Z105 0.054 1 
Y 13 PANI 0.123 8 hydroiodic 0.055 7 SnO, 0.053 7 
= 14 Zn2Ti04 0.123 8 dimethyl 0.055 1 SiO, 0.051 3 


< 十 15 PEI 0.117 2 CH3NH3Br 0.054 8 CdSe 0.047 9 


PASE hl 45 THEA EY) ERP (hydrochloric ) , Z M ( acetic ) 等 混 
ER. EXE HE DJ, Cluster. PBK RR HL (Ba 
TiO4) , BFO( BiFeO, ) 均 具 优良 铁 电 介 电 性 质 ,AgSbS， 
TiO, 共同 具有 敏 化 特性 , Cluster2 中 Sb,Se,, 
Ag,S.CQDs 常 作 量子 点 材料 ,这 些 知 识 元 由 于 具有 相 
司 潘 用 功能 ,不仅 被 准确 识别 处 于 同 语义 复 , 且 变异 度 
指 恰 数 信 均 较 高 。 Cluster3 中 , 4a) 46 it ( CuSbS, ) 太 阳 电 
c 1.445 


— 13 [| Cluster 


X i X Clhster2 
Q i &  Cluster3 
0.9 


0.7 . 


0.5 


0.3 


0.1 a 


—0.089 


-0.289 


-0.489 


—0.689 


—0.889 


-1.089 


—0.551 —0.351 —0.151 0.049 


4 2015 年 研究 前 沿 


池 吸 收 层 、MASnX; 和 CsSnL, 无 铝 钙 钛 矿 吸 光 薄 膜 引 
起 科学 家 关注 ,变异 度 指 标 均 高 于 应 用 广泛 的 MAPHI 


吸光 材料 ;二 而 


I 斑 烷 (DIO) 等 也 被 发 现 对 于 器 件 性 能 


改善 有 较 大 影 


向 


5.4.2 2015 年 研究 前 沿 知识 变异 特征 
ESI 人 研究 前 沿 2015 年 知识 元 语义 复 聚 类 分 布 结果 


如 图 4 所 示 ,各 篮 内 前 15 位 高 变异 度 知 识 元 分 布 如 表 
4 所 示 : 


0.249 0.449 0.649 0.849 1.049 
-0.651 -0.451 -0.251 -0.051 0.149 0.349 0.549 


ARCU IS XAR ETE 


0.749 0.9949 1.123 


分 布 
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C| ina IVES 


表 4 2015 年 研究 前 沿 各 语义 徐 知 识 元 变异 度 分 布 


a Clusterl Cluster2 Cluster3 
知识 元 变异 度 知识 元 变异 度 知识 元 变异 度 
1 CssSbslo 0.299 7 CQD 0.976 1 ZnO 0.076 3 
2 Ag@ SiO, 0.2795 ZnSn04 0.289 3 FAI 0.066 9 
3 pentane 0.259 4 CuS 0. 280 6 P3HT 0.059 8 
4 BDT 0.245 0 In( OH)4 0.278 1 PCBM 0.049 7 
5 ZnSn03 0.173 6 PEO 0.267 3 PCaBM 0.0460 
6 SiC 0. 160 2 Bi2S3 0.252 3 tin 0.034 1 
7 CsSnl4 0.1314 ODT 0.245 5 MABr 0.032 6 
8 MoSe; 0.129 5 C-PCBSD 0.205 3 Al0; 0.031 9 
9 CsPbl, 0.123 9 MOF 0.168 8 bromide 0.030 7 
10 MAPI 0.122 6 titanate 0.1511 TiO, 0.030 6 
11 FAPbI, 0.115 4 AgAl 0. 138 9 MAI 0.030 5 
12 PEDOT 0.102 6 PEI 0.138 2 GBL 0.029 6 
Co40, 0.102 3 GeO, 0. 133 0 IPA 0.028 0 
PbS 0.099 8 mp-Al,03 0.1247 ITO 0.025 0 
MAPDI,Cl 0.093 6 MASnI, 0.122 0 spiro-OMeTAD 0.023 4 


15 AEJERE WI IO ELT IR AAT Ms USE WB 


PEE ERD Jes Ld SE DL We , P, HT 与 PCBM PC, BM 一 


发 属 时 期 。 科 学 家 实验 中 使 用 化 学 材料 种 类 更 加 丰 


富 ) 因 而 知识 元 词 向 量 喘 射 的 二 维 语义 坐标 距离 间隔 


较 远 ; 语 义 聚 类 徐 中 心间 隔 走 近 , 证 明 此 时 期 科学 家 对 
[能 电池 具有 相对 较 高 效率 和 稳定 性 能 的 组 件 材料 


语义 语 用 功能 方面 ,Cluster2 中 知识 元 多 为 钙 钛 矿 
太阴 能 电池 前 期 制备 所 需 的 新 关注 溶液 试剂 或 中 间 产 
物 收 饰物。 如 , AE BEG EE CREE 
(ZnjSn0, ) "常用 作 基 于 金属 的 碱 性 溶液 In( OH)3、 
可 抑制 反 向 电流 的 界面 修饰 材料 聚 氧化 乙烯 
(PEO) P .用 于 衬 底 分 子 膜 制 备 的 朴 水 功能 基 团 ODT 
( 正 十 八 硫 醇 ) .利于 增强 光 吸收 的 空 穴 传输 层 掺 杂 物 
MOF .用 于 修饰 ZnO 等 电子 传输 层 的 富 勤 烯 衍生 物 
(C-PCBSD ) 等 。 

Cluster! 和 Cluster3 知识 元 节点 较为 分 散 ,证 明 出 
现 了 许多 新 兴 材 料 。 其 中 ,Clusterl 中 知识 元 变异 度数 
值 明显 高 于 Cluster3 , 主要 聚焦 新 型 无 机 钙 铁 矿 材料 等 
方面 :Cs;Sb,I, ,CsSnI, , CsPbI, 等 被 证 明 具有 合适 带 阶 
及 高 载 流 子 迁 移 率 ; Ag 纳米 相 ( Ag@ SiO, 纳米 颗粒 ) 
与 AL0, 介 和 孔 层 混合 ,被 发 现 可 明显 提升 钙 詹 矿 复合 
薄膜 光 吸 收 性 能 29 。Cluster3 则 聚焦 钙 钛 矿 电 子 和 空 
穴 传输 层 材料 :Zn0 、Al,0; TiO, 成 为 代表 性 钙 铁 矿 电 
子 传输 材料 ;FAI.MABr MAL 引入 前 驱 体 制备 高 协调 


道 用 于 空 穴 传输 材料 制备 等 引发 科学 家 关注 ,3 种 知 
识 元 变异 度数 值 较为 接近 、 且 均 高 于 应 用 广泛 的 spiro- 
OMeTAD 传统 材料 ,这 种 现象 在 本 文中 2015 年 即 被 准 
确 发 现 ,并 识别 出 PCe BM 这 种 潜在 的 相互 作用 化 学 成 
分 ,而 前 文 “中 直到 2016 年 P3HT 与 PCBM 才 作 为 高 
频 共 现 知识 元 对 出 现 成 为 研究 热点 。 
5.4.3 2016 年 研究 前 沿 知识 变异 特征 

ESI 研究 前 沿 2016 年 知识 元 语义 复 聚 类 分 布 结果 如 
图 5 所 示 , 各 簇 内 前 15 位 高 变异 度 知识 元 分 布 见 表 5。 

2016 年 研究 前 沿 各 语义 聚 类 复 中 知识 元 呈现 更 
加 分 散 的 特点 ,各 簇 边界 划分 趋 于 清晰 , 簇 间 知识 元 覆 
现象 减弱 ,各 簇 中 心 焦点 距离 变 大 , 簇 内 知识 元 含有 
由 大 幅 增加 ,证 明 此 时 期 进入 钙 钛 矿 太 阳 能 电池 前 
领域 的 快速 发 展 时 期 。 透 过 该 现象 也 发 现 ,借助 对 
新 型 材料 的 研发 设计 ,科学 家 此 时 期 不 只 期 望 继 续 提 
高 钙 匆 矿 太 阳 能 电池 光电 效率 和 稳定 性 ,也 旨 在 解决 
实验 中 面临 的 许多 产业 化 问题 ,使 其 能 尽早 进入 规模 
化 生产 应 用 。 

在 语义 语 用 功能 上 ,此 时 期 又 出 现 许 多 新 的 “知识 
地 貌 ” 突 发 信号 。Cluster2 中 知识 元 变异 度数 值 均 较 
高 ,主要 聚焦 用 于 增强 制备 性 能 的 化 合 物 及 相关 材料 。 
其 中 , ALD-TiO, , SAF-Ome , CuO-Cu,O , In,O,-MWCNTs 
等 变异 度数 值 相近 知识 元 ,多 为 具有 增强 制备 性 能 作 
的 复合 物 :原子 沉积 (ALD ) 制备 TiO, 可 显著 提高 电 
池 效 率 ;SAF-OMe 空 穴 传输 能 力 比 Spiro-OMeTAD 高 三 
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5 2016 年 研究 前 沿 知 识 元 语义 聚 类 簇 分 布 


表 5 2016 年 研究 前 沿 各 语义 徐 知 识 元 变异 度 分 布 


6 
-0.116 


0.932 
0.684 


a Clusterl Cluster2 

Q * 知识 元 变异 度 知识 元 变异 度 知识 元 变异 度 
"T, CQD 0.441 7 ALD-TiO; 0.499 5 HPbI, 0.323 6 
= 2 MnO, 0.3220 SAF-Ome 0.499 5 HOIP 0.245 9 
N CZTSe 0.281 3 Cu0-Cu,0 0.444 6 GO 0.109 1 
© :4 MoS, 0.269 4 In,03-MWCNTs 0.408 7 Bil, 0.079 7 
N 5 NiS 0.263 2 AgCuS 0.360 5 PEG 0.076 5 

> 6 BisTes 0.244 4 AgBiS， 0.3316 NiO 0.070 
< 7 PCBMs 0.233 3 BaSiy 0.328 4 PDMS 0.068 5 
© : WSe; 0.204 3 ZSO 0.312 6 Snl, 0.067 35 
C 9 CTAB 0. 188 6 NH,SCN 0.296 9 ZnO 0.059 4 
c 10 BaZiS, 0.171 7 BiFe03 0.295 1 FAPbI; 0.059 0 
Ou nitrides 0. 133 6 AgNWs 0.290 2 PVP 0.058 1 
12 germanium 0.1215 Cs4PbBr6 0.281 0 MABr 0.048 8 

13 MA3Bizlo 0.113 1 NGQDs 0.266 7 Al504 0.041 5 
14 MASnI, 0.074 1 C60-SAM 0.257 8 SnO, 0.039 0 

15 CdSe 0.073 6 CsBisllo 0.245 8 THF 0.036 2 


倍 以 上 ;Cu0-Cu0 半导体 纳米 棒 阵 列 可 有 效 催化 
光电 合成 反应 。 而 AgCuS、AgBiS,、BaSi,、Zn,Sn0, 
(ZSO) , BiFeO, , Cs, PbBr, , CsBi,I,, 等 系列 光敏 半导体 
和 纳米 品 材 料 , 则 常 应 用 于 太阳 能 薄膜 制备 。 

Clusterl 和 Cluster3 3& 25 fk P ALIA 6 T3 na, E JUL C 
布 ,节点 距离 间隔 较 远 ,知识 元 间 语 义 语 用 类 别 差距 相 
对 较 大 。 其 中 , Clusterl 多 关注 钙 钛 矿 吸光 层 摊 杂 制备 
材料 :如 可 作为 低 电阻 金属 氧化 物 掺 杂 制 备 光 吸收 层 
多 孔 骨 架 的 MnO, BASS AM WOOGIE HA BG ROC E, 
及 稳定 性 的 Mos, 可 用 于 制备 超 薄 柔性 太阳 能 电池 的 


WSe, 等 。Cluster3 多 为 实验 常用 基础 化 学 试剂 ,但 也 
不 乏 重 要 前 沿 信 号 :如 可 简化 钙 钛 矿 薄膜 合成 修复 制 
备 工艺 的 HPbL, ^" .可 改善 器 件 光 伏 性 能 的 聚 乙 二 醇 
(PEG)、 可 显著 提高 光电 效率 的 聚 乙 烯 吡 络 煤 酮 
(PVP) 器 等 , 均 成 为 钙 钛 矿 太 阳 能 电池 研究 此 时 的 重 
要 关注 点 。 
5.4.4 2017 年 研究 前 沿 知识 变异 特征 

ESI 研究 前 沿 2017 年 知识 元 语义 余 聚 类 分 布 结果 
如 图 6 所 示 , 各 艇 内 前 15 位 高 变异 度 知识 元 分 布 如 表 
6 所 示 : 
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1.081 " 
è B cue 
a »6 Cluster2 
0.792 a &  Cluster3 
z a 
0.592 a 
" 
LJ 
0.392 
0.192 
LJ 
LJ LJ 
-0.008 a 
LI 
-0.208 
-0.40848 
WE 
—0.595 —0.365 —0.165 0.035 0.235 0.452 
T —0.665 —0.465 一 一 0.135 
C 6 2017 年 研究 前 沿 知 识 元 语义 聚 类 簇 分 布 
CO RO 2017 年 研究 前 沿 各 语义 做 知 识 元 变异 度 分 布 
Clusterl Cluster2 Cluster3 
O 序号 
四 知识 元 变异 度 知识 元 变异 度 知识 元 变异 度 
< 1 a-FAPbI, 0.589 7 GeP 0.917 3 ZnO 0.069 4 
= 2 SWCNT 0.493 1 CuS 0.469 9 MASnI, 0. 064 6 
N 3 KCoF3 0.279 2 MoS, 0.319 2 PCaBM 0.051 6 
© 4 RbCoF; 0.272 5 AgNCs 0.314 5 dimethyl 0.049 6 
N 5 N-TiO 0.232 9 OLCNS; Ag 0. 284 3 diethyl 0.049 1 
a 
> 6 FASnl; 0.227 8 PbSe@ CdSe 0.259 6 isopropoxide 0.048 2 
Hmmm 
Se 7 h-BN 0.2230 CIGSSe 0.253 5 acid 0.043 4 
[qv] 8 MCoF; 0.212 7 Y505 0.234 2 acetate 0.041 9 
C 9 CssInAgCle 0.1766 CuS 0.223 1 Snl, 0.039 3 
c 10 AgBil, 0.153 8 rubrene 0.205 2 SnO, 0.036 0 
© 1 PVK 0. 137 6 TPBC 0.203 9 TiO, 0. 034 6 
12 Cs5[ Agm | Bre 0. 134 6 MWCNTs 0. 196 6 SnF, 0.032 9 
13 CsjInBiClg 0.118 6 NWs 0.190 6 PCBM 0.0312 
14 RbCsMAFA 0.117 8 SWNTs 0.185 5 ethyl 0.031 1 
15 RbSnl; 0.1129 SWCNTs 0.176 2 isopropyl 0.030 6 
BM Y M A RK H p. b. n ` E & Y DA $ 
2017 EWA ee XU A RE YN 3S TE He R | 方面 :如 同 为 金属 氧化 物 半 导体 材料 的 ZnO 和 TiO, ; 


发 覆盖 渗透 的 态势 ,各 簇 内 知识 元 分 布 出 现 明显 收拢 
聚焦 迹象 ,各 篮 聚 类 中 心间 隔 也 进一步 缩小 ,说 明 此 时 
期 研究 前 沿 进入 稳定 发 展 阶段 。 具 有 相似 语义 语 用 功 
能 的 知识 元 材料 种 类 明显 增多 ,构成 钙 钛 矿 太 阳 能 
池 的 核心 器 件 材料 趋 于 稳定 ,各 篮 间 知识 元 材料 在 实 
验 中 化 学 作用 归 类 也 不 似 往 年 那么 边界 明晰 ,但 各 簇 
内 知识 元 材料 在 现实 中 的 实验 应 用 目的 却 更 为 相近 。 
Clusterl 和 Cluster3 知识 元 分 布 形态 较为 相似 ,只 
是 Cluster3 相对 更 趋 于 收敛 ,知识 元 间 语 义 相似 程 度 
更 高 ,其 相似 语 用 功能 聚焦 在 半导体 电子 传输 材料 等 


同 为 富 勒 烯 衍生 物 且 常用 于 电子 传输 材料 的 PC。 BM 
和 PCBM ;制备 MASnL, 无 铅 清洁 太阳 能 电池 的 Sol, 
SnO, \SnF, 等 。Clusterl 知识 元 变异 度数 值 明 显 高 于 
Cluster3 ,具有 许多 推动 器 件 性 能 革新 的 重要 信和 号: 西 
安 交 通 大 学 吴 朝 新 团队 实现 高 效 柔性 非 铅 甲 胀 锡 碘 
( FASnL, ) 钙 钛 矿 太 阳 能 电池 ,引发 关注 ” ;通过 梯度 
带 隙 提高 太阳 光谱 利用 是 释 层 电池 的 未 解决 难题 , 科 
学 家 此 时 提出 一 种 利用 六 方 气 化 硼 (h-BN ) 作 为 中 间 
单 层 形成 梯度 带 隙 的 方法 ,引起 艇 动 ”。 

Cluster2 中 知识 元 排 布 则 较为 紧凑 ,语义 语 用 功能 


E 
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也 更 为 相似 ,主要 聚焦 在 新 型 半导体 晶体 光敏 材料 和 
砚 纳 米 系列 材料 等 方面 。 例 如 ,GeP、CuS、MoS,、PbSe 
€ CdSe .CICSSe , Y,O, , Cu, S 等 半导体 晶体 光敏 材料 ， 
常 作为 量子 点 .染料 敏 化 多 结 太阳 能 电池 等 相关 器 件 
材料 ;AgNCs( 银 纳米 簇 ) .OLCNS :Ag( 洋 葱 状 碳 纳米 球 
复合 银 ) .MWCNTs (多 壁 碳 纳米 管 ) NWs( 纳 米线 )、 
单 壁 碳 纳 米 管 (CSWNTsSWCNTs ) 等 知识 元 , 则 体现 了 
科学 家 此 时 期 对 于 碳 纳米 系列 材料 的 应 用 关注 。 


6 Zi 


作为 一 类 面向 学 科 领 域 情报 需求 .基于 全 文本 分 
析 和 关键 语义 计算 的 情报 实践 探索 ,本 文 首先 基于 分 
布 假说 理论 ,使 用 Word2vec 模型 训练 知识 元 语义 ; 然 
后 ,利用 K-means 聚 类 学 习 算 法 ,寻找 知识 元 群 条 的 语 
义 语 用 分 类 和 相互 作用 关系 ;最 后 ,通过 同 语义 秘 知 识 
JER) TF-IDF 数值 ,计算 其 相对 前 沿 主题 文本 的 突 发 变 
哆 移 度 ,进而 探测 时 序 变迁 下 ESI 研究 前 沿 的 知识 演 
进 特征 和 可 能 引发 创新 的 关键 信号 。 

中 通过 洲 请 领域 专家 检验 和 专业 学 科 文 献 查证 等 途 
知 惨 现 本 文 方法 能 较 好 识别 各 时 期 可 能 推动 前 沿 创 
新 颖 展 的 关键 情报 信号 ,前 文中 分 析 结果 也 恰好 成 为 
对 村 文 结果 的 检验 。 事 实 上 ,前 文中 基于 知识 元 共 现 
的 误 别 结果 更 多 的 是 反应 达到 一 定 热度 的 前 沿 热点 方 
向 ;而 本 文 结果 实质 为 各 时 期 “知识 地 貌 "图 中 突现 的 
“知识 势 场 "信号 ,更 可 能 为 前 沿 演进 中 知识 迁移 的 关 

屠 折 节点 ,是 刚 冒 头 的 前 沿 方向 。 本 文 所 识别 信号 


PT A. 


往往 不 是 钙 铁 矿 太 阳 能 电池 大 部 件 的 整体 革新 ,更 为 
常 嗓 的 是 基于 与 太阳 能 电池 核心 器 件 相关 的 微小 改良 
和 别 级 (或 者 化 学 试剂 的 添加 挨 杂 等 微小 实验 步 又) 
而 引发 的 整体 性 能 提升 。 其 实 , 由 微小 改进 改良 到 整 
体 需 件 性 能 质 的 提升 过 程 , 才 真正 体现 了 科学 在 现实 


中 的 发 展 轨迹 一 一 由 点 到 面 、 由 小 的 关键 突破 推动 整 
体 的 科技 创新 研发 。 


还 需要 说 明 的 是 ,本 文 所 提 理 论 方法 与 技术 方案 ， 
ALDI ESI 研究 前 治 数据 作为 案例 ,但 整套 思想 和 方 
法 设计 并 不 局 限于 ESI 研究 前 沿 , 其 对 于 利用 引文 关 
系 、. 语 词 关系 和 其 他 计量 指标 所 识别 的 传统 "研究 前 
沿 ” 仍 具有 较 强 普 适 性 和 可 借鉴 推广 价值 ,因此 ,未 来 
也 将 有 针对 性 地 开展 本 文 方法 与 技术 方案 对 于 其 他 研 
究 前 治 数据 及 演进 规律 的 控 掘 分 析 。 
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© Abstract: | Purpose/significance | As an exploratory research, this paper is oriented to the needs of scientific 
find technological information in the specialized discipline domain, and aims to realize the quantitative analysis of key 

-全 nantics of the full text and the practical application shift from “information automation” to “knowledge automa- 
Gh”. On the basis of previous studies from the perspective of knowledge element co-occurrence to explore the evolu- 
tion mechanism of ESI research fronts, this paper further proposes a research front knowledge evolution analysis meth- 
od based on knowledge element variation. | Method/process | Firstly, knowledge elements were represented as word 
vectors by word2vec word embedding model. Then, this paper calculated Euclidean distance of knowledge element 
vectors, and identified knowledge element clusters with similar semantic and pragmatic association by K-means clus- 
tering method. Finally, TF-IDF values of each knowledge element in the diachronic cluster were calculated. Through 
the quantitatively measurement of sudden changes in the importance of knowledge elements, the characteristics and 
rules of knowledge element variation were mined in the process of ESI research fronts evolution. | Result/conclu- 
sion | Through the comparative test of the detection results, it is found that the scientometric method based on knowl- 
edge element variation is not only a supplement and expansion of the previous research methods, but also makes the 
mining of the internal knowledge movement law of ESI research fronts more specific and detailed. Moreover, in the 
scope of time series, it is a strong evidence that the future development trend and key information signals of the ESI 
research fronts can be detected as soon as possible. 
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